该报告解释,实施和扩展了“更紧密的变化界限不一定更好”所介绍的作品(T Rainforth等,2018)。我们提供了理论和经验证据,这些证据增加了重要性的重要性数量$ k $在重要性加权自动编码器(IWAE)中(Burda等,2016)降低了推理中梯度估计量的信噪比(SNR)网络,从而影响完整的学习过程。换句话说,即使增加$ k $减少了梯度的标准偏差,但它也会更快地降低真实梯度的幅度,从而增加梯度更新的相对差异。进行广泛的实验以了解$ k $的重要性。这些实验表明,更紧密的变化界限对生成网络有益,而宽松的边界对推理网络来说是可取的。通过这些见解,可以实施和研究三种方法:部分重要性加权自动编码器(PIWAE),倍增重要性加权自动编码器(MIWAE)和组合重要性加权自动编码器(CIWAE)。这三种方法中的每一种都需要IWAE作为一种特殊情况,但采用不同的重量权重,以确保较高的梯度估计器的SNR。在我们的研究和分析中,这些算法的疗效在多个数据集(如MNIST和Omniglot)上进行了测试。最后,我们证明了三种呈现的IWAE变化能够产生近似后验分布,这些分布与IWAE更接近真正的后验分布,同时匹配IWAE生成网络的性能,或者在PIWAE的情况下可能超过其表现。
translated by 谷歌翻译
近年来,深度学习导致了在城市驾驶场景中移动(即具有运动能力)物体的检测方面取得的巨大进展。监督方法通常需要大型培训集的注释;因此,人们对利用弱,半或自我监督的方法避免这种情况非常兴趣,并取得了很大的成功。虽然弱和半监督的方法需要一些注释,但自我监督的方法已经使用了诸如运动之类的线索来完全减轻注释的需求。但是,完全没有注释通常会降低其性能,而在运动组进行分组期间出现的歧义可以抑制其找到准确的物体边界的能力。在本文中,我们提出了一种称为SCT的新的自制移动对象检测方法。这同时使用运动提示和预期对象大小来提高检测性能,并预测3D方向边界框的密集网格以改善对象发现。我们在Kitti跟踪基准上的最先进的自我监督的移动对象检测方法TCR极大地超过了,并且实现了全面监督的PV-RCNN ++方法的30%以内IOUS <= 0.5。
translated by 谷歌翻译
共同监督的深度学习方法的关节深度和自我运动估计可以产生准确的轨迹,而无需地面真相训练数据。但是,由于通常会使用光度损失,因此当这些损失所产生的假设(例如时间照明一致性,静态场景以及缺少噪声和遮挡)时,它们的性能会显着降解。这限制了它们用于例如夜间序列倾向于包含许多点光源(包括在动态对象上)和较暗图像区域中的低信噪比(SNR)。在本文中,我们展示了如何使用三种技术的组合来允许现有的光度损失在白天和夜间图像中起作用。首先,我们引入了每个像素神经强度转化,以补偿连续帧之间发生的光变化。其次,我们预测了每个像素的残差流图,我们用来纠正由网络估计的自我运动和深度引起的重新注入对应关系。第三,我们将训练图像降低,以提高方法的鲁棒性和准确性。这些更改使我们可以在白天和夜间图像中训练单个模型,而无需单独的编码器或诸如现有方法(例如现有方法)的额外功能网络。我们对具有挑战性的牛津机器人数据集进行了广泛的实验和消融研究,以证明我们方法对白天和夜间序列的疗效。
translated by 谷歌翻译
Image annotation is one essential prior step to enable data-driven algorithms. In medical imaging, having large and reliably annotated data sets is crucial to recognize various diseases robustly. However, annotator performance varies immensely, thus impacts model training. Therefore, often multiple annotators should be employed, which is however expensive and resource-intensive. Hence, it is desirable that users should annotate unseen data and have an automated system to unobtrusively rate their performance during this process. We examine such a system based on whole slide images (WSIs) showing lung fluid cells. We evaluate two methods the generation of synthetic individual cell images: conditional Generative Adversarial Networks and Diffusion Models (DM). For qualitative and quantitative evaluation, we conduct a user study to highlight the suitability of generated cells. Users could not detect 52.12% of generated images by DM proofing the feasibility to replace the original cells with synthetic cells without being noticed.
translated by 谷歌翻译
人们现在将社交媒体网站视为其唯一信息来源,因为它们的受欢迎程度。大多数人通过社交媒体获取新闻。同时,近年来,假新闻在社交媒体平台上成倍增长。几种基于人工智能的解决方案用于检测假新闻,已显示出令人鼓舞的结果。另一方面,这些检测系统缺乏解释功能,即解释为什么他们做出预测的能力。本文在可解释的假新闻检测中突出了当前的艺术状态。我们讨论了当前可解释的假新闻检测模型中的陷阱,并介绍了我们正在进行的有关多模式可解释的假新闻检测模型的研究。
translated by 谷歌翻译
图像组成有助于研究图像结构,并有助于发现跨艺术形式和样式描绘的基础场景的语义。近年来,随着艺术品的数字化,可能会将成千上万个特定场景或叙述的图像联系在一起。但是,将这些数据与一致的客观性联系起来可能是一项高度挑战和耗时的任务。在这项工作中,我们提出了一种称为图像组成画布(ICC ++)的新方法,以比较和检索具有相似组成元素的图像。 ICC ++是对ICC的改进,专门针对由Max Imdahl的工作激发的低水平和高级功能(组成元素)。为此,我们与传统和最先进的方法(SOTA)方法进行了严格的定量和定性比较,表明我们所提出的方法优于所有这些方法。结合深度功能,我们的方法优于最佳的基于深度学习的方法,为数字人文学科的可解释机器学习打开了研究方向。我们将发布代码和数据后的数据。
translated by 谷歌翻译
仇恨言论等攻击性内容的广泛构成了越来越多的社会问题。 AI工具是支持在线平台的审核过程所必需的。为了评估这些识别工具,需要与不同语言的数据集进行连续实验。 HASOC轨道(仇恨语音和冒犯性内容识别)专用于为此目的开发基准数据。本文介绍了英语,印地语和马拉地赛的Hasoc Subtrack。数据集由Twitter组装。此子系统有两个子任务。任务A是为所有三种语言提供的二进制分类问题(仇恨而非冒犯)。任务B是三个课程(仇恨)仇恨言论,令人攻击和亵渎为英语和印地语提供的细粒度分类问题。总体而言,652名队伍提交了652次。任务A最佳分类算法的性能分别为Marathi,印地语和英语的0.91,0.78和0.83尺寸。此概述介绍了任务和数据开发以及详细结果。提交竞争的系统应用了各种技术。最好的表演算法主要是变压器架构的变种。
translated by 谷歌翻译
在本文中,我们通过生成的对抗网络(GAN)架构探索机器翻译改进。我们从Relgan,一个文本制造模型和鼻孔机械翻译模型中获取灵感,实现了一个学习将尴尬,非流利的英语句子转换为流利的模型,同时只培训在单梅换语料库上。我们利用参数$ \ lambda $来控制从输入句子的偏差量,即保持原始令牌和修改它更流利之间的权衡。在某些情况下,我们的结果改进了基于短语的机器翻译。特别是,带变压器发生器的GaN显示出一些有希望的结果。我们建议将来的一些方向建立在这种概念上建立。
translated by 谷歌翻译
微分方程在现代世界中起着关键作用,包括科学,工程,生态,经济学和金融,这些方程可用于模拟许多物理系统和过程。在本文中,我们使用物理知识的神经网络(PINN)研究了人类系统中药物同化的两个数学模型。在第一个模型中,我们考虑了人类系统中单剂量的单剂量的情况,在第二种情况下,我们考虑定期服用这种药物的过程。我们已经使用隔室图来对这些情况进行建模。使用PINN求解所得的微分方程,在该方程中,我们使用feed向前的多层感知器作为函数近似器,并且对网络参数进行调整以获取最小误差。此外,通过找到有关网络参数的误差函数的梯度来训练网络。我们采用了用于PINNS的Python库DeepXde来求解描述两种药物同化模型的一阶微分方程。结果显示,确切解决方案和预测解之间的高度准确性与第一个模型的结果误差达到10^(-11),而第二个模型的误差为10^(-8)。这验证了PINN在求解任何动态系统中的使用。
translated by 谷歌翻译
卷积神经网络(CNNS)在监督环境中的影响提供了巨大的性能。从CNN中学到的表示,在高度球形歧管上运作,导致了面部识别,面部识别和其他受监督任务的富有魅力结果。具有广泛的激活功能,具有间直觉,在欧几里德空间中执行优于Softmax。这项研究的主要动力是提供见解。首先,暗示立体图投影以将数据从欧几里德空间($ \ mathbb {r} ^ {n} $)转换为高度球形歧管($ \ mathbb {s} ^ {n} $)来分析角度边缘损失的性能。其次,从理论上证明了使用立体投影在极度上构建的决策边界义务授权了神经网络的学习。实验已经证明,在现有的最先进的角度边缘目标功能上应用立体摄影改善了标准图像分类数据集的性能(CIFAR-10,100)。此外,我们在疟疾薄血涂片图像上运行了我们的实验,导致有效的结果。该代码可公开可用:https://github.com/barulalithb/stereo -angular-margin。
translated by 谷歌翻译